由于客户之间统计异质性的诅咒,采用个性化联合学习方法已成为成功部署基于联合学习的服务的基本选择。在个性化技术的各种分支中,基于模型混合物的个性化方法是优选的,因为每个客户都有自己的个性化模型,因为联合学习。它通常需要本地模型和联合模型,但是这种方法要么仅限于部分参数交换,要么需要其他本地更新,每种都对新颖客户端无助,并且对客户的计算能力负担重。由于已经发现了两个或更多独立深度网络之间包含多种低损失解决方案的连接子空间的存在,因此我们将这种有趣的属性与基于模型混合物的个性化联合学习方法相结合,以改善个性化的性能。我们提出了一种个性化的联合学习方法,该方法诱导了体重空间中本地和联合模型的优势之间的明确联系,以相互促进。通过在几个基准数据集上进行的广泛实验,我们证明了我们的方法在个性化绩效和鲁棒性方面都可以在现实服务中实现有问题的情况。
translated by 谷歌翻译
Deep Neural Networks (DNN) are becoming increasingly more important in assisted and automated driving. Using such entities which are obtained using machine learning is inevitable: tasks such as recognizing traffic signs cannot be developed reasonably using traditional software development methods. DNN however do have the problem that they are mostly black boxes and therefore hard to understand and debug. One particular problem is that they are prone to hidden backdoors. This means that the DNN misclassifies its input, because it considers properties that should not be decisive for the output. Backdoors may either be introduced by malicious attackers or by inappropriate training. In any case, detecting and removing them is important in the automotive area, as they might lead to safety violations with potentially severe consequences. In this paper, we introduce a novel method to remove backdoors. Our method works for both intentional as well as unintentional backdoors. We also do not require prior knowledge about the shape or distribution of backdoors. Experimental evidence shows that our method performs well on several medium-sized examples.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
估计平均因果效应的理想回归(如果有)是什么?我们在离散协变量的设置中研究了这个问题,从而得出了各种分层估计器的有限样本方差的表达式。这种方法阐明了许多广泛引用的结果的基本统计现象。我们的博览会结合了研究因果效应估计的三种不同的方法论传统的见解:潜在结果,因果图和具有加性误差的结构模型。
translated by 谷歌翻译
确定对特定干预措施(医疗或政策)响应特别好(或不良)的亚组,需要专门针对因果推理量身定制的新监督学习方法。贝叶斯因果森林(BCF)是一种最近的方法,已被记录在数据生成过程中,具有强烈混杂的方法,这种方法在许多应用中都具有合理的方式。本文开发了一种用于拟合BCF模型的新型算法,该算法比先前可用的Gibbs采样器更有效。新算法可用于初始化现有Gibbs采样器的独立链,从而使模拟研究中相关间隔估计值的后验探索和覆盖率更好。通过模拟研究和经验分析将新算法与相关方法进行比较。
translated by 谷歌翻译
Shap是一种衡量机器学习模型中可变重要性的流行方法。在本文中,我们研究了用于估计外形评分的算法,并表明它是功能性方差分析分解的转换。我们使用此连接表明,在Shap近似中的挑战主要与选择功能分布的选择以及估计的$ 2^p $ ANOVA条款的数量有关。我们认为,在这种情况下,机器学习解释性和敏感性分析之间的联系是有照明的,但是直接的实际后果并不明显,因为这两个领域面临着不同的约束。机器学习的解释性问题模型可评估,但通常具有数百个(即使不是数千个)功能。敏感性分析通常处理物理或工程的模型,这些模型可能非常耗时,但在相对较小的输入空间上运行。
translated by 谷歌翻译
尽管进行了多年的研究,但跨域的概括仍然是深层网络的语义分割的关键弱点。先前的研究取决于静态模型的假设,即训练过程完成后,模型参数在测试时间保持固定。在这项工作中,我们通过一种自适应方法来挑战这一前提,用于语义分割,将推理过程调整为每个输入样本。自我适应在两个级别上运行。首先,它采用了自我监督的损失,该损失将网络中卷积层的参数定制为输入图像。其次,在批准层中,自适应近似于整个测试数据的平均值和方差,这是不可用的。它通过在训练和从单个测试样本得出的参考分布之间进行插值来实现这一目标。为了凭经验分析我们的自适应推理策略,我们制定并遵循严格的评估协议,以解决先前工作的严重局限性。我们的广泛分析得出了一个令人惊讶的结论:使用标准训练程序,自我适应大大优于强大的基准,并在多域基准测试方面设定了新的最先进的准确性。我们的研究表明,自适应推断可以补充培训时间的既定模型正规化实践,以改善深度网络的概括到异域数据。
translated by 谷歌翻译
基于仿真的推理(SBI)正在迅速将自己确立为一种标准的机器学习技术,用于分析宇宙学调查中的数据。尽管通过学习模型对密度估计的质量持续改进,但这种技术对真实数据的应用完全依赖于远远超出培训分布的神经网络的概括能力,这主要是不受限制的。由于科学家创建的模拟的不完美,以及产生所有可能参数组合的巨大计算费用,因此,宇宙学中的SBI方法很容易受到此类概括性问题的影响。在这里,我们讨论了这两个问题的效果,并展示如何使用贝叶斯神经网络框架进行训练SBI可以减轻偏见,并在培训集外产生更可靠的推理。我们介绍了CosmosWag,这是平均随机重量的首次应用,并将其应用于经过训练的SBI,以推断宇宙微波背景。
translated by 谷歌翻译
欧文(Owen)和霍伊特(Hoyt)最近表明,有效维度提供了有关人工神经网络基础的投入输出映射的关键结构信息。沿着这一研究,这项工作提出了一个估算过程,该过程允许从给定数据集计算平均维度,而无需重新采样外部分布。当功能独立时,当特征相关时,设计会产生总索引。我们表明,这种变体具有零独立性。使用合成数据集,我们分析了平均维度如何按一层演化,以及激活函数如何影响相互作用的幅度。然后,我们使用平均维度来研究一些用于图像识别的最广泛使用的卷积架构(Lenet,Resnet,Densenet)。为了说明像素相关性,我们建议在添加逆PCA层后计算平均尺寸,该层允许人们在无关的PCA转换功能上工作,而无需重新训练神经网络。我们使用广义的总索引来生产热图用于事后解释,并且我们在PCA转换特征上采用了平均维度来进行人工神经网络结构的交叉比较。结果提供了有关架构之间相互作用幅度差异的几个见解,以及有关训练过程中平均维度如何演变的指示。
translated by 谷歌翻译
我们提出Plingo,这是具有各种概率推理模式的ASP系统clingo的扩展。Plingo以Lp^mln为中心,Lp^mln是基于Markov Logic的权重方案的ASP的概率扩展。这种选择是由于可以将核心概率推理模式映射到优化问题的事实而动机,并且LP^mln可以用作与其他概率方法相关的中间地形式主义。结果,Plingo为Lp^mln,P-Log和Problog提供了三个替代前端。相应的输入语言和推理模式是通过Clingo的多拍和理论解决功能来实现的。pling脚的核心等于在现代ASP技术方面重新实现LP^mln,并以一种基于新方法以最佳顺序进行答案集枚举的近似技术扩展。我们通过将Plingo的性能与其他概率系统进行比较,从经验上评估。
translated by 谷歌翻译